Descriptive Statistics (Mean, Median, Mode, Variance, Standard Deviation)

Computer Programming - আর প্রোগ্রামিং (R Programming) - Statistical Analysis in R (R এ পরিসংখ্যানগত বিশ্লেষণ)
269

R এ পরিসংখ্যানগত বিশ্লেষণ (Statistical Analysis in R)

R প্রোগ্রামিং ভাষা পরিসংখ্যান বিশ্লেষণের জন্য অত্যন্ত শক্তিশালী একটি টুল। এটি বিভিন্ন ধরনের পরিসংখ্যানিক টেস্ট, মডেলিং এবং বিশ্লেষণ করতে সহায়ক। R এ সাধারণত বেসিক পরিসংখ্যান, হাইপোথিসিস টেস্টিং, রিগ্রেশন মডেলিং, এবং টাইম সিরিজ অ্যানালাইসিসের মতো বিভিন্ন পরিসংখ্যানিক বিশ্লেষণ করা যায়।


১. বেসিক পরিসংখ্যান (Basic Statistics)

বেসিক পরিসংখ্যানিক বিশ্লেষণ যেমন গড় (mean), মধ্যম (median), মান বিচ্যুতি (standard deviation), এবং বৈচিত্র্য (variance) বের করা R এ সহজেই করা যায়।

উদাহরণ:

# ডেটা তৈরি
data <- c(5, 10, 15, 20, 25, 30)

# গড় (Mean)
mean_value <- mean(data)
print(mean_value)

# মধ্যম (Median)
median_value <- median(data)
print(median_value)

# বৈচিত্র্য (Variance)
variance_value <- var(data)
print(variance_value)

# মান বিচ্যুতি (Standard Deviation)
sd_value <- sd(data)
print(sd_value)

২. হাইপোথিসিস টেস্টিং (Hypothesis Testing)

R এ বিভিন্ন ধরনের হাইপোথিসিস টেস্ট করা যায় যেমন t-test, chi-square test এবং ANOVA। এগুলি পরিসংখ্যানিক পার্থক্য যাচাই করতে ব্যবহৃত হয়।

t-Test উদাহরণ:

# t-Test
data1 <- c(5, 6, 7, 8, 9)
data2 <- c(10, 11, 12, 13, 14)

t_test_result <- t.test(data1, data2)
print(t_test_result)

Chi-square Test উদাহরণ:

# ডেটা তৈরি
observed <- c(50, 30, 20)
expected <- c(40, 30, 30)

# Chi-square Test
chi_square_result <- chisq.test(observed, p = expected/sum(expected))
print(chi_square_result)

৩. রিগ্রেশন বিশ্লেষণ (Regression Analysis)

রিগ্রেশন অ্যানালাইসিসের মাধ্যমে চলকগুলির মধ্যে সম্পর্ক নির্ধারণ করা হয়। R এ lm() ফাংশন ব্যবহার করে লিনিয়ার রিগ্রেশন মডেল তৈরি করা হয়।

লিনিয়ার রিগ্রেশন উদাহরণ:

# ডেটা তৈরি
data <- data.frame(
  x = c(1, 2, 3, 4, 5),
  y = c(2, 4, 5, 7, 10)
)

# লিনিয়ার রিগ্রেশন মডেল
model <- lm(y ~ x, data = data)
print(summary(model))

এখানে, y ~ x নির্দেশ করছে যে y হল নির্ভরশীল ভেরিয়েবল এবং x হল স্বাধীন ভেরিয়েবল।


৪. ANOVA (Analysis of Variance)

ANOVA একটি পরিসংখ্যানিক টেস্ট যা গোষ্ঠীগুলোর গড়ের মধ্যে পার্থক্য নির্ধারণ করতে ব্যবহৃত হয়। এটি aov() ফাংশন ব্যবহার করে করা যায়।

ANOVA উদাহরণ:

# ডেটা তৈরি
data <- data.frame(
  values = c(15, 18, 20, 22, 24, 30, 35, 40, 45, 50),
  group = c("A", "A", "A", "B", "B", "B", "C", "C", "C", "C")
)

# ANOVA টেস্ট
anova_result <- aov(values ~ group, data = data)
print(summary(anova_result))

এখানে values ~ group নির্দেশ করছে যে values ভেরিয়েবলটি group ভেরিয়েবলের উপর নির্ভরশীল।


৫. করেলেশন এবং কো-রিলেশন ম্যাট্রিক্স (Correlation and Correlation Matrix)

করেলেশন দুটি ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করতে ব্যবহৃত হয়। cor() ফাংশন ব্যবহার করে সহজেই করেলেশন বের করা যায়।

উদাহরণ:

# ডেটা তৈরি
data <- data.frame(
  x = c(1, 2, 3, 4, 5),
  y = c(2, 4, 5, 7, 10)
)

# করেলেশন নির্ণয়
correlation <- cor(data$x, data$y)
print(correlation)

করেলেশন ম্যাট্রিক্সের জন্য একটি ডেটা ফ্রেম বা ম্যাট্রিক্স প্রয়োজন।

উদাহরণ:

# করেলেশন ম্যাট্রিক্স
correlation_matrix <- cor(data)
print(correlation_matrix)

৬. টাইম সিরিজ অ্যানালাইসিস (Time Series Analysis)

টাইম সিরিজ অ্যানালাইসিসে ডেটা পরিবর্তনের ধারাবাহিক পর্যবেক্ষণ করা হয়। R এ টাইম সিরিজ অ্যানালাইসিসের জন্য ts() ফাংশন এবং অন্যান্য প্যাকেজ ব্যবহার করা হয়।

উদাহরণ:

# টাইম সিরিজ ডেটা তৈরি
time_series_data <- ts(c(100, 120, 130, 140, 150, 160), start = c(2021, 1), frequency = 12)

# টাইম সিরিজ প্রদর্শন
print(time_series_data)

# টাইম সিরিজ প্লট
plot(time_series_data, main = "Time Series Plot", xlab = "Time", ylab = "Values")

৭. Principal Component Analysis (PCA)

PCA একটি ডাইমেনশন রিডাকশন টেকনিক, যা বড় ডেটাসেটকে ছোটো ডাইমেনশনে পরিবর্তন করতে ব্যবহৃত হয়।

উদাহরণ:

# ডেটা তৈরি
data <- data.frame(
  x = rnorm(10),
  y = rnorm(10),
  z = rnorm(10)
)

# PCA বিশ্লেষণ
pca_result <- prcomp(data, scale = TRUE)
print(summary(pca_result))
print(pca_result$rotation)

সারসংক্ষেপ

R প্রোগ্রামিং ভাষা পরিসংখ্যানিক বিশ্লেষণের জন্য একটি অত্যন্ত শক্তিশালী টুল। R এ বিভিন্ন পরিসংখ্যানিক বিশ্লেষণ সহজেই করা যায়:

  • বেসিক পরিসংখ্যান: গড়, মধ্যম, মান বিচ্যুতি, এবং বৈচিত্র্য।
  • হাইপোথিসিস টেস্টিং: t-Test, Chi-square test, এবং ANOVA।
  • রিগ্রেশন অ্যানালাইসিস: চলকগুলির মধ্যে সম্পর্ক নির্ধারণ।
  • করেলেশন: দুই চলকের মধ্যে সম্পর্ক পরিমাপ।
  • টাইম সিরিজ অ্যানালাইসিস: ধারাবাহিক ডেটা পরিবর্তনের পর্যবেক্ষণ।
  • Principal Component Analysis (PCA): ডাইমেনশন রিডাকশন।

এই সব বৈশিষ্ট্য R কে গবেষক, ডেটা সায়েন্টিস্ট এবং পরিসংখ্যানবিদদের জন্য অত্যন্ত গুরুত্বপূর্ণ এবং কার্যকরী করে তুলেছে।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...